16 research outputs found
FelszĂni eset : absztrakt eset - rövid elĹ‘adás
Ez a cikk a magyar nyelv felszini eseteinek nagy számából eredő problémák egy lehetséges megoldásával, független absztrakt tulajdonságok bevezetésével kisebb csoportokra bontással, és ennek az előnyeivel foglalkozik
A magyar helyesĂrás-ellenĹ‘rzĹ‘k mai állása
A helyesĂrás-ellenĹ‘rzĹ‘k jĂłsága fĂĽgg az előállĂtás mĂłdjátĂłl, karbantartásátĂłl, de az adatbázis mĂ©retĂ©nek növekedĂ©sĂ©vel objektĂv korlátokba ĂĽtközik a minĹ‘sĂ©g. Jelen cikk kitĂ©r az objektĂv minĹ‘sĂtĂ©s mĂłdszertanára, elvi korlátaira. Ă–sszeveti az elĂ©rhetĹ‘ helyesĂrás-ellenĹ‘rzĹ‘ket. MegkĂsĂ©rli pártatlan mĂłdon összevetni az elĂ©rhetĹ‘ programokat, Ă©s megmutatni, hogy a nyelvi adatbázis Ă©pĂtĂ©sĂ©nĂ©l alkalmazott mĂłdszereknek milyen elĹ‘nyĂĽk, hátrányuk van. A cikk vĂ©gĂ©n keresi a további hatĂ©kony fejlesztĂ©s irányát
Szösszenet az elveszett morfémákért : az alaki analógiák haszna
A jelenlegi morfolĂłgiai elemzĹ‘k gyakorlati okok miatt elĂ©g pragmatikus mĂłdon kĂ©szĂĽltek. A cĂ©ljuk, aránylag kis munkával fedjĂ©k le a magyar nyelvű szövegeinek szĂłalakjait minĂ©l kevesebb hibával. Ha a cĂ©lt elĂ©rtĂ©k, a szabályszerű eseteket jĂłl leĂrták, a deviáns, kisebb gyakorisággal elĹ‘fordulĂł eseteket kivĂ©telkĂ©nt, egyedileg kezelik. A vizsgálataim szerint sokkal kevesebb kivĂ©tel van. A szavak vĂ©gzĹ‘dĂ©se szerinti csoportosĂtással felderĂthetĹ‘k azok a szavak közötti összefĂĽggĂ©sek, melyek a korábbi adatbázisokbĂłl hiányoznak. A mĂłdszer segĂtsĂ©gĂ©vel elfeledett vagy csak leĂrĂł nyelvĂ©szek által emlĂtett szĂłgyökök, toldalĂ©kok kerĂĽlnek napvilágra. SĹ‘t a feltárás eredmĂ©nyekĂ©nt pontosĂthatĂłak a praktikus cĂ©lra kĂ©szĂĽlt nyelvĂ©szeti, nyelvi tárak. The current morphological analyzers have been designed pragmatically for practical purposes. Their goal is to cover the word forms in Hungarian texts with relatively little effort and with as few mistakes as possible. Once the goal has been achieved, regular case affixes, marks, and verbal conjugation endings are well described in a formal way, but most derivative affixes and rare case suffixes are treated individually as exceptions. In my research, I found that there are far fewer exceptional word forms in Hungarian. By clustering word forms by their endings, new relationships, new roots, new morphemes can be discovered that are missing from earlier databases. By clustering word forms by their endings, new relationships among roots, morphemes can be discovered that are missing from earlier databases. One can simplify morphological descriptions without limiting their power. Even a complete morphological description of an unknown language can be generated based on a large corpus solely. Moreover, if not only similarities of endings, but clusters of ending patterns are used to group word forms, then many hidden word roots and suffixes can be discovered that have been forgotten altogether, or mentioned only by descriptive linguists. As a result of the method, semantic dependences might be discovered, and linguistic collections, databases made for practical purposes can be corrected, improved as well
Szófaji beosztás névszói csoportok elemzéséhez
A klasszikus nyelvosztályozás - fĹ‘nĂ©v, mellĂ©knĂ©v, számnĂ©v stb. - nem elĂ©gsĂ©ges a gĂ©pi elemzĂ©shez. A nĂ©vszĂłk pontosabb kategorizálása lehetĹ‘sĂ©get ad a többĂ©rtelműsĂ©gek számának csökkentĂ©sĂ©re, Ă©s pontosabb mondatelemzĂ©siĂ©. Jelen cikk egy finomabb, de jelentĂ©stant nem használĂł felosztást javasol. A felosztás szerepet játszik a szĂłalaktanban Ă©s a mondattanban egyaránt. SegĂtsĂ©gĂ©vel pontosĂthatĂł a nĂ©vszĂłi szerkezetek határa Ă©s definiáltsága, mely hasznosnak bizonyult a korábbi projektekben, de használata várhatĂłan a fordĂtási projektben elengedhetetlennĂ© válik
The reliability of statistics in linguistics notes to a dictionary extension
Nowadays statistical tools are often used tool in linguistics, but the reliability of these methods is rarely examined. In natural language processing, statistical methods have their boundaries, and one should pay more attention to them. I try to show, when and how can we estimate its boundaries
Statisztika megbĂzhatĂłsága a nyelvĂ©szetben : szĂ©ljegyzetek egy szĂłtárbĹ‘vĂtĂ©s ĂĽrĂĽgyĂ©n
Manapság szinte korlátlan mennyisĂ©gben lehet termĂ©szetes nyelvű szövegeket elĂ©rni a www jĂłvoltábĂłl. Emiatt a nyelvi kutatásoknál, eszközök fejlesztĂ©sĂ©nĂ©l erĹ‘sen támaszkodnak nyelvi statisztikákra. A megbĂzhatĂłság kĂ©rdĂ©sĂ©vel viszont kevesen foglalkoznak, pedig ez kulcskĂ©rdĂ©se a tömeges adatok felhasználhatĂłságának. Ez a cikk azzal foglalkozik, milyen jellegű objektĂv korlátai vannak a statisztikáknak, Ă©s hogyan lehet becsĂĽlni a megbĂzhatĂłságot